# _*_ coding:utf-8 _*_
# @Time : 2021/9/17 17:49
# @Author : wsl
# @File : Urllib
# @Project : 第一个反扒：User Agent反扒，爬取结果内容比http少
# http/https---www.baidu.com---80/443---s---wd=周杰伦---#
# 协议             主机         端口号  路径  参数      锚点
# http 80
# https 443

import urllib.request
import urllib.parse

# User Agent：f12（右键检查）-network-第一个位置访问的网址-headers-最下面UA  谷歌的不能用，这里是火狐

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0'
}


# 词 -> Unicode
name = urllib.parse.quote('周杰伦')
print(name)

# base_url = 'https://www.baidu.com/s?/wd=周杰伦'
# base_url = 'https://www.baidu.com/s?/wd=%E6%AF%9B%E4%B8%8D%E6%98%93'
base_url = 'https://www.baidu.com/s?/wd='

# get请求方式的 参数是拼接到url后面
url = base_url + name

# urlopen方法中不能用字典，用string / Request      解决：请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
response2 = urllib.request.urlopen(request)
content2 = response2.read().decode('utf-8')
print(content2)
print(response2.getcode())  # 200


